本文提出了一种评估RGB视频文件中可见人体组织灌注的方法。我们提出了源自远程光摄影(RPPG)信号的指标,以检测组织是否充分供应血液。灌注分析以三种不同的尺度进行,为不同的应用提供了灵活的方法。我们在每个尺度上独立地对局部定义的感兴趣区域独立执行平面正交到皮肤的RPPG。从提取的信号中,我们得出了信噪比,频域中的大小,心率,灌注指数以及特定RPPG信号之间的相关性,以便在局部评估人类组织特定区域的灌注。我们表明,本地解决的RPPG具有广泛的应用。作为示例性应用,我们介绍了术中术中灌注分析和可视化皮肤和器官移植期间的可视化,以及用于谋生评估以检测表现攻击到身份验证系统中的应用。
translated by 谷歌翻译
我们对会话分析的问题及其在健康领域的应用感兴趣。认知行为疗法是心理疗法的结构化方法,使治疗师能够帮助患者识别和修改恶意思想,行为或行动。可以使用工作联盟库存观察者评级的缩短来评估这项合作的工作 - 12个项目涵盖任务,目标和关系 - 对治疗结果具有相关的影响。在这项工作中,我们研究了该联盟库存与患者与心理治疗师之间的口头对话(会议)之间的关系。我们已经提供了八个星期的电子疗法,收集了他们的音频和视频通话课程,并手动转录它们。专业治疗师对口语对话进行了注释和评估。我们已经调查了语音和语言特征及其与WAI项目的关联。功能类型包括转弯动力学,词汇夹带以及从语音和语言信号中提取的对话描述符。我们的发现提供了有力的证据,表明这些特征的一部分是工作联盟的强有力指标。据我们所知,这是一项针对言语和语言来表征工作联盟的第一项和新颖的研究。
translated by 谷歌翻译
标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明,使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点,评估了我们对来自两个标准化神经心理学测试的数据,即德国SKT和德国版本的CERAD-NB,以及患者与心理学家之间的半结构化临床访谈。对于测试,我们关注三个子测试的语音记录:阅读数字(SKT 3),干扰(SKT 7)和口头流利度(Cerad-NB 1)。我们表明,标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外,我们提供的证据表明,即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中,我们使用开米的功能和支持向量机分类器。在改进的设置中,我们表明使用WAV2VEC 2.0功能,我们可以达到高达85%的精度。
translated by 谷歌翻译
本文经验研究了不同数据拆分和分裂策略对功能障碍检测系统性能的影响。为此,我们使用具有分类头的WAV2VEC 2.0模型以及支持向量机(SVM)以及从WAV2VEC 2.0模型中提取的功能进行实验。我们使用播客(SEP-28K)数据集中的口吃事件的不同非说明书和说话者的分裂训练和评估系统,以阐明结果W.R.T.的可变性。使用使用的分区方法。此外,我们表明SEP-28K数据集仅由少数扬声器主导,因此很难评估。为了解决这个问题,我们创建了Sep-28k扩展(Sep-28k-e),其中包含半自动生成的扬声器和性别信息,为SEP-28K语料库,建议不同的数据拆分,每个数据分配有用,可用于评估方法的其他方面用于功能障碍检测。
translated by 谷歌翻译
口吃是一种多种言语障碍,会损害个人的沟通能力。口吃(PWS)的人经常使用语音疗法来应对自己的病情。改善具有这种非典型语音或跟踪语音疗法的人的语音识别系统将需要能够检测功能障碍的系统,同时能够检测到治疗中获得的语​​音技术。本文表明,用于在含有口吃的语音上结结巴巴的口吃的微调2VEC 2.0 [1],结合多任务的学习,增强了通用Purepose Wav2VEC 2.0的有效性,以检测语音在语音中检测说话的功能;内部和跨语言。我们通过训练支持向量机分类器评估我们的FluencyBank的方法[2]和以德国治疗为中心的Kassel Fluency(KSOF)[3]数据集[3]数据集,该数据集使用六种不同结肠相关的事件类型中提取的功能:块:块: ,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。使用来自微调模型的嵌入式嵌入会导致相对分类的性能增长到高达27%W.R.T. F1得分。
translated by 谷歌翻译
口吃是一种复杂的言语障碍,会对个人有效沟通的能力产生负面影响。口吃(PWS)的人通常在这种情况下遭受很大的痛苦,并通过治疗寻求帮助。流利的塑形是一种治疗方法,PWSS学会修改他们的语音以帮助他们克服口吃。即使在治疗后,掌握这种语音技术也需要时间和练习。治疗后不久,对成功的评估很高,但复发率很高。为了能够长期监视语音行为,检测口吃事件和语音修改的能力可以帮助PWSS和语音病理学家跟踪流利程度。监测可以通过检测流利度的失误来提早进行干预的能力。据我们所知,没有公共数据集可用,其中包含接受口吃疗法的人的演讲,这些疗法改变了口语风格。这项工作介绍了Kassel Fluency(KSOF),这是一项基于疗法的数据集,其中包含超过5500个PWSS。这些剪辑标记为六种与口吃相关的事件类型:块,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。音频是在Kasseler Stottertherapie研究所期间记录的。该数据将根据要求提供用于研究目的。
translated by 谷歌翻译
个人叙述(PN) - 口语或书面 - 来自自己经验的事实,人,活动和思想的回忆。情感识别和情感分析任务通常在话语或文档级别定义。然而,在这项工作中,我们专注于情感载体(EC)定义为最佳解释叙述者的情绪状态(“父亲失去”,“让我选择”)。一旦提取,这种EC可以提供用户状态的更丰富表示以改善自然语言理解和对话建模。在以前的工作中,已经表明可以使用词法特征来识别EC。但是,口语叙述应该提供对背景的更丰​​富的描述和用户的情绪状态。在本文中,我们利用基于文字的声学和文本嵌入以及早期和晚期融合技术,用于检测口语叙述中的ECS。对于声学词级表示,我们使用在单独的语音情绪上进行剩余的剩余神经网络(Reset)并进行微调以检测EC。不同融合和系统组合策略的实验表明,晚期融合导致这项任务的重大改进。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
放射线学使用定量医学成像特征来预测临床结果。目前,在新的临床应用中,必须通过启发式试验和纠正过程手动完成各种可用选项的最佳放射组方法。在这项研究中,我们提出了一个框架,以自动优化每个应用程序的放射线工作流程的构建。为此,我们将放射线学作为模块化工作流程,并为每个组件包含大量的常见算法。为了优化每个应用程序的工作流程,我们使用随机搜索和结合使用自动化机器学习。我们在十二个不同的临床应用中评估我们的方法,从而在曲线下导致以下区域:1)脂肪肉瘤(0.83); 2)脱粘型纤维瘤病(0.82); 3)原发性肝肿瘤(0.80); 4)胃肠道肿瘤(0.77); 5)结直肠肝转移(0.61); 6)黑色素瘤转移(0.45); 7)肝细胞癌(0.75); 8)肠系膜纤维化(0.80); 9)前列腺癌(0.72); 10)神经胶质瘤(0.71); 11)阿尔茨海默氏病(0.87);和12)头颈癌(0.84)。我们表明,我们的框架具有比较人类专家的竞争性能,优于放射线基线,并且表现相似或优于贝叶斯优化和更高级的合奏方法。最后,我们的方法完全自动优化了放射线工作流的构建,从而简化了在新应用程序中对放射线生物标志物的搜索。为了促进可重复性和未来的研究,我们公开发布了六个数据集,框架的软件实施以及重现这项研究的代码。
translated by 谷歌翻译
人工智能(AI)启用的自主实验为加速科学发现提供了新的范式。非平衡材料合成是复杂,资源密集型实验的象征性,其加速将是物料发现和发展的流域。最近通过高吞吐量实验加速了非平衡合成相图的映射,但仍然限制了材料研究,因为参数空间太大而无法彻底探索。我们通过科学自主推理代理(SARA)管辖的分层自主实验,证明了加速的合成和促进亚稳材料。 SARA将机器人材料合成和表征与AI方法的层次集成,有效地揭示了处理相图的结构。 SARA设计横向梯度激光尖峰退火(LG-LSA)实验,用于平行材料合成,采用光学光谱速度迅速识别相转变。利用嵌套的主动学习(AL)周期实现了多维参数空间的高效探索,该嵌套主动学习模型包括实验的底层物理以及端到端的不确定性量化。有了这个,萨拉在多种尺度处的协调体现了复杂的科学任务的AI利用。我们通过自主映射综合映射_3 $ System的综合相位边界来展示其性能,导致幅度加速度,即建立一个合成相图,其中包括动力学稳定$ \ delta $ -bi $的条件_2 $ o $ _3 $在室温下,用于氧化固体氧化物燃料电池等电化学技术的关键开发。
translated by 谷歌翻译